#divergencia kl

StreamKL: divergencia KL rápida y eficiente para destilación de atención

StreamKL reduce el consumo de memoria de O(N²) a O(1) y acelera hasta 43x la destilación de atención en GPUs. Ideal para modelos con contexto largo.

2026-06-19 · 2 min

StreamKL: Divergencia KL rápida y eficiente para destilación de atención

StreamKL acelera hasta 43x la divergencia KL en destilación de atención, reduciendo memoria de O(N²) a O(1) en GPU. Ideal para contextos largos.

2026-06-19 · 3 min

Mitigando el olvido de capacidades generales en modelos de razonamiento

Descubre cómo el método RECAP evita que los modelos de razonamiento olviden capacidades generales durante el entrenamiento RLVR, preservando percepción y

2026-06-19 · 1 min

El desplazamiento no es dirección: evaluando métricas de fidelidad para LLM cuantizados

¿La divergencia KL es un buen indicador de calidad en modelos de lenguaje cuantizados? Descubre por qué falla en la zona silenciosa y cómo afecta al despliegue.

2026-06-19 · 2 min

Optimización estocástica mejorada de LogSumExp

Descubre cómo la nueva Safe KL Divergence permite optimizar LogSumExp de forma eficiente con métodos estocásticos, mejorando transporte óptimo y DRO.

2026-06-19 · 2 min

Emparejamiento del operador de Perron-Frobenius en modelos generativos

El nuevo enfoque PFOM unifica flujo, difusión y saltos en modelos generativos usando el operador de Perron-Frobenius. Aceleración Nesterov y divergencia KL.

2026-06-17 · 2 min

Cuando el siguiente paso no es uno solo: modelado de ejecución para Go

Descubre cómo el modelado basado en distribución supera a Gemini en precisión y calibración al predecir eventos en programas Go concurrentes. Un enfoque

2026-06-17 · 1 min

Expandiendo SPHERE-JEPA: Regularizadores Estadísticos en la Hiperesfera

Los regularizadores deterministas MMD, KSD y KL en la hiperesfera mejoran la estabilidad y convergencia en aprendizaje autosupervisado.

2026-06-17 · 2 min

Emparejamiento de Perron-Frobenius para Modelado Generativo

Descubre PFOM: un marco generativo que unifica flujo, difusión y saltos vía operador de Perron-Frobenius. Convergencia acelerada con Nesterov.

2026-06-17 · 2 min

Expandiendo SPHERE-JEPA: Una familia de regularizadores estadísticos para la hiperesfera

Descubre cómo los regularizadores deterministas en la hiperesfera eliminan la varianza estocástica, mejorando la convergencia y la geometría del espacio

2026-06-17 · 2 min

Diffusion Flow Matching: Límites KL con Dimensión Mejorada y Garantías Wasserstein

Mejora la convergencia de tus modelos generativos con DFM: nuevas cotas KL con dependencia dimensional reducida y garantías Wasserstein. Lee más.

2026-06-16 · 3 min

Diffusion Flow Matching: Mejora dimensional en KL y garantías Wasserstein

Nuevos límites de convergencia para Diffusion Flow Matching con mejoras en KL y Wasserstein. Análisis teórico avanzado para modelos generativos.

2026-06-16 · 2 min

Cuando el contexto regresa: internalización robusta en destilación on-policy

¿Sabías que reintroducir el contexto a un modelo destilado puede empeorar su rendimiento? Descubre cómo un ligero regularizador lo evita.

2026-06-11 · 2 min

Optimalidad de tokens FSQ en difusión continua para datos categóricos (TTS)

Los tokens FSQ son óptimos para difusión continua en datos categóricos. Este estudio demuestra que superan a modelos LLM en TTS siendo más pequeños y rápidos.

2026-06-10 · 2 min

La trampa de la confianza: ataques de calibración para GNN

Los modelos de GNN calibrados son vulnerables a ataques adversariales. El marco UGCA revela cómo aumentar el error de calibración manteniendo la precisión. ¡Conócelo!

2026-06-09 · 3 min